Praca domowa numer 8

Szymon Gut

Cel pracy domowej

Celem pracy domowej jest przygotowanie wstępnej analizy eksploracyjnej danych. Zbiór danych, który był analizowany dotyczy win i znajduje się pod tym linkiem https://www.kaggle.com/uciml/red-wine-quality-cortez-et-al-2009. Cała analiza została przeprowadzona w pythonie z wykorzystaniem bibliotek: pandas, numpy, plotly oraz matplotlib

Wczytanie wykorzystywanych bibliotek

Wczytanie wykorzystywanej ramki danych

Uzyskanie informacji na temat typów zmiennych w poszczególnych kolumnach, ilość wierszy oraz nazwy kolumn

Informacje na temat dataset'u

The Red Wine Quality dataset zawiera informacje na temat różnych fizykochemicznych właściwości win.

Ten dataset zawiera tylko zmienne numeryczne:

Ile wartości null występuje w poszczególnych kolumnach?

Widzimy, że nasze dane nie posiadają żadnych braków i zawierają wszelkie potrzebne informacje.

Zobaczmy jak prezentują się ich rozkłady

Co od razu rzuca sie w oczy to fakt, że część zmiennych jest rozkładu przybliżonego do normalnego np. ph oraz część ma rozkłady typowo skośne np. total sulfur dioxide

Sprawdźmy jakie właściwości mają dane w poszczególnych kolumnach, tj. jaka jest ich mediana, wartość średnia, minimalna, maksymalna etc.

fixed acidity
volatile acidity
citric acid
residual sugar
chlorides
free sulfur dioxide
total sulfur dioxide
density
pH
sulphates
alcohol
quality
Lub zestawienie dla calego dataFrame'a

Ile wierszy się powtarza?

Nasza ramka danych posiada aż 240 tych samych wierszy

Zobaczmy może, które wiersze się powtarzają

Jaką część danych kolumn stanowią zera?

Widzimy, więc że wartości = 0 znajdują się tylko w kolumnie citric acid i stanowią one, aż 8% wszystkich wierszy w tej kolumnie

Zbadajmy korelacje pomiędzy naszymi wartościami

Korelację pomiędzy zmiennymi bardzo dobrze pokazuje heatmapa

Gdy ktoś pierwszy raz spojrzy na heatmape może się zastanawiać czemu wartości na przekątnej mają wartość jeden i wyraźnie wyróżniają się ciemnym różowym kolorem. Dzieje się tak oczywiście dlatego ponieważ współczynnik korelacji pomiędzy tą samą zmienną musi wynosić 1.

Pozytywne powiązania (>= 0.25):

Czy rzeczywiście alkohol ma pozytywny wpływ na jakość wina?

możemy zauważyć na wykresie, że rzeczywiście, im wyższa zawartość alkoholu, tym wyższa jakość wina

Dwa poniższe wykresy pomagają zobaczyć ile w dataFrame'a znajduje się win o danym stężeniu alkoholu i danej jakości

Czy rzeczywiście ilość siarczanów pozytywnie wpływają na jakośc wina?

możemy zauważyc, że i tutaj zależność wydaje się być poprawna, im wyższe stężenie siarczanów tym wyższa jakość wina.

Dwa poniższe wykresy pomagają zobaczyć ile w dataFrame'a znajduje się win o danym stężeniu alkoholu i danej jakości

Jak alkohol i ilość siarczanów wpływa na jakość wina?

Stwórzymy jednak oddzielne wykresy dla każdej jakości wina

Większość dobrych win (quality >= 7) posiada ponad 10% alkoholu oraz siarczany pomiędzy 0.5 a 1.0

Co ważne w ramce danych występują głównie wina średniej jakości ( przeważa ocena 5-6, brak natomiast tych z ocena 0-2 oraz 9-10

Podsumowanie

Zbiór danych zawiera bardzo dużo cennych informacji na temat składu i jakości win. Myślę, że ciekawym byłoby zrobienie modelu predykcyjnego na jego podstawie, który na podstawie składu wina stwierdzałby np. jakiej wino może być jakości.